这样的骨干网是如何炼成的?
引言
骨干网(Internet Backbone Network)是连接国与国、城市与城市之间的高速互联网络。如下图所示,它通过海缆和路缆,将分布在世界各地的数据中心连接起来,是互联网服务提供商和云计算服务提供商的重要基础设施,肩负着满足全球范围内网络数据通信需求的重任。
全球骨干网示意图
骨干网的角色如此重要,以至于与此有关的话题,常常会引起业界的关注和讨论。作为云计算的基础,国内的云计算服务提供商是如何运维自己的骨干网的?又是如何实现自动化运维的?有哪些值得分享、思考的经验和做法?作为一名从业10年的网络架构师,我向大家介绍一下金山云骨干网的现况,希望对大家有所帮助。
如何快速发现骨干网级别故障
首先简要介绍一下建设进展。金山云目前在北京和上海两地之间租用专线搭建起了骨干网络,按照计划,今年金山云会在广州部署节点,将进一步扩大环网规模,搭建北上广骨干环网,大幅提升金山云公有云服务的网络质量SLA。
当然,这并不是说建设骨干环网后就不会出故障了,对于互联网公司和云计算服务商来说,运营商的骨干网络故障是很让人头痛的,因为在通常情况下,这种故障会影响到多个省份用户网络的访问质量。
例如,2016年11月19日晚8点,包括华南、西南、华中等在内的国内多个地区,超过10个省份的用户,在访问华北地区的服务节点时,均出现了问题。测试结果显示,ICMP丢包率高达30%,延迟增大了约100ms,这种级别的丢包率和延迟情况,如果不及时处理,将导致用户的业务严重受损。
那么,对于这种骨干网级别的故障,云服务商能否做到快速发现定位呢?当然是可以的。
金山云的做法是,通过自研开源监控的方式,研发出服务于金山云整个骨干网的网络质量监控系统(Netbench)。
金山云网络质量监控系统监控图
如上图所示,金山云的这套系统支持多地区、多ISP监控,可在运营商发生骨干网故障时,快速发现并准确定位故障,同时采用电子地图这种直观形式,显示出各省份各地级市的网络质量(延迟、丢包等数据),如果某地出现问题,地图上相应位置的颜色就会变得不同。
金山云网络质量监控系统架构图
金山云网络质量监控系统的主要特点
一、定位策略
抓取访问客户服务的用户IP作为监控目的IP;
多对多的监控模式,多个源IP监控全国各个省市的用户IP(保证数据的准确性避免路由ecmp不均匀的问题);
通过对抓取到的IP进行筛选,排除掉一些不准确的IP,最终筛选出每省份数百个有效IP进行监控;
商用的IP地址库与BGP IP结合对抓取到的IP进行区分(ISP、省、市等);
Master-Slave的部署模式,监控周期可精确到分钟级(每1分钟)。
二、主要功能
提供短信、微信、邮件告警;
提供故障时的MTR数据(平均每省份多个MTR),可帮助判断loss节点;
提供柱状图、历史数据展示等功能,可追溯故障,查看故障时的丢包以及延迟情况;
可针对重要的IP进行指定监控。
三、应用场景
可覆盖CDN、静态、BGP等多网络类型;
目前可针对EIP(计算)、KS3(存储)、KLS(视频)等业务类型进行监控。
骨干网调度架构图
发现故障就要及时解决
如何才能快速的解决骨干网级别的故障呢?
云叔会在下期奉上
敬请期待~~~